Opsgenie 的警报和待命功能现已在 Jira Service Management 和 Compass 中可用。使用我们的自动迁移工具在 2027 年 4 月 5 日之前迁移现有的 Opsgenie 数据和配置。
DevOps 时代的事件管理
将开放、无指责的沟通原则应用于事件管理团队
如果不反思事件应对方法,您就无法重新思考如何去构建、部署和操作软件。
在 2009 年题为“每天部署 10 次以上:Flickr 开发与运营密切配合”的开创性演讲中,John Allspaw 和 Paul Hammond 勾勒了他们所憧憬的开发人员和 IT 运营团队协同工作并经常发布的世界。在接下来十年中,这一愿景随着 DevOps 运动而逐渐成形。
DevOps 的本质决定了其需要以全新的方式应对事件。因此,事件管理在 Allspaw 和 Hammond 的演讲中备受关注也就不足为奇了。Hammond 在演讲中提到,“关键要认识到,故障必然会发生。问题不在于会不会发生,而在于何时发生。”
与 ITIL 等框架不同,没有针对 DevOps 团队的“官方”最佳实践文档。但我们普遍认为,DevOps 的核心是打破组织孤岛、提高透明度以及促进开发人员和 IT 运营团队之间的开放式沟通,从而为组织提供商业价值。
同样的透明度、可视性和快速学习文化可延伸至事件管理。
为什么?因为事件管理的第一步(也是最关键的一步),是要了解出了什么问题,安排合适的人员解决问题,以及培养一种无指责的文化。
DevOps 事件管理要求在开发人员和 IT 运营团队之间发展开放、无指责的沟通文化。还要建立轻量级的流程,来加强 IT 服务可靠性、提高客户满意度,并推动业务价值。DevOps 工程师可以帮助实施 DevOps 文化和实践。
相比之下,ITIL 是一个由 26 个流程、程序、任务和清单构成的规范集合,旨在改进 IT 服务管理中的特定实践。ITIL 侧重于服务质量和一致性,以及改进系统的弹性。
ITIL 有一个好处,组织若要改进 ITSM,可以从模板化的最佳实践着手,不必从头开始。尽管有些人认为 ITIL 最适合大型企业,但该框架足够灵活,小型公司也可挑选对自己业务有意义但仍能找到价值的流程。
ITIL 也有一个缺点,当您急于改变事件响应流程时,却要牵涉正式变更管理并需要专家顾问参与,因而拖延了改进。
对于想要立即入门的团队,DevOps 事件管理方法可以帮助他们齐心协力并立即实现效益。
DevOps 事件管理流程
1. 检测
DevOps 事件响应团队不指望事件永不发生(因为事件必定会发生),而是高度重视准备工作。这些团队会协同配合,并通过识别系统中的薄弱环节来规划针对潜在事件的应对方案。它们还会设置监控工具、警报系统和运行手册,来帮助每位成员知道在检测到事件时该联系谁以及下一步该怎么做。
2. 响应
DevOps 事件管理团队不会安排一名待命工程师来负责响应待命排班中的所有事件,而是指定多个团队成员随时介入上报。如果指定的待命工程师无法独立解决事件,则可参考运行手册来作为指导。待命工程师可引入适当人员来评估问题的影响与严重程度,并将其上报给适宜的响应者。
3. 解决
需对事件做出响应时,DevOps 事件管理团队通常能快速解决问题。这是因为团队整体对应用或系统代码更为熟悉,毕竟这些代码就由它们编写!而且,借助提前准备和良好的沟通系统,它们可以共同完成旨在解决事件的工作,因而相比首次接触代码的第三方响应团队,解决问题的速度要快得多。
4. 分析
DevOps 事件管理团队会通过无指责式事后分析流程进行事件收尾。团队成员共同参与,分享相关信息、指标与经验教训,旨在持续提升系统的韧性,同时确保未来能更快速高效地解决各类事件。
5. 就绪
当事件得到解决,所有补救步骤均已完成,并且系统恢复正常后,DevOps 事件管理团队会进行复盘,评估应对下一次事件的就绪状态。它们会利用在事后分析过程中总结的经验教训,更新运行手册,并对监控工具和警报系统进行必要调整。此外,DevOps 对持续改进的关注也适用于人员和团队,而不仅仅是技术。每经历一次事件,每位团队成员都会为下一次事件做好更充分的准备。
高效 DevOps IM 团队的最佳实践
采用 DevOps 方法来响应事件,可以改善开发和 IT 运营团队之间的沟通,加快事件响应和补救速度,并且提高系统的弹性。
流程与工作流自动化
整合服务台、监控、开单、CMDB/资产管理及聊天工具,以简化 IT 事件警报与工作流,从而确保相关人员能及时收到通知并获取着手解决问题所需的信息。通过预定义的工作流设置运行手册,以便事件发生时团队能迅速投入工作。
跨团队沟通
确保团队成员能借助实时聊天工具在组织内进行沟通。使用能记录事件处理过程的工具,让任何人都能随时介入,快速了解事件进展和已采取的措施。
采用无可指责式方法
事件解决后,团队应共同回顾事件经过,以便举行无指责式事后分析会议。避免指责他人并专注于分享信息,从而帮助每个人改进工作成效并为提高系统可靠性贡献力量。
识别并聚焦业务核心目标
DevOps 事件响应不仅是改善沟通的方式,更是确保开发人员与运营团队协作交付实际业务价值的途径。跟踪平均检测时间 (MTTD)、平均修复时间 (MTTR) 和平均故障间隔时间 (MTBF) 等指标,了解团队团队改进的速度。
借助待命值班表,推动开发人员与系统管理员向 SRE 转型
在 DevOps 团队中,开发人员与系统管理员的界限逐渐模糊,事件响应人员常演变为站点可靠性工程师 (SRE)。尽管如此,团队成员往往在应用代码或基础架构代码领域各有所长。设置待命值班表,以确保事件响应时能调配具备相应专业知识的人员。
详细了解 Jira Service Management 如何支持 DevOps 方法事件管理。